Entrega Final - Series Cronológicas

Facultad de Ciencias Económicas y Administración - 2025 - UDeLaR

Author

Leandro Berrueta, Lucca Frachelle, Cecilia Waksman

Published

June 21, 2025

Se dispone de una serie mensual con la cantidad de clientes con deuda vigente en el Banco Santander en el período Diciembre - 2018 a Marzo - 2025.

Se utiliza como entrenamiento los datos hasta 2024, y luego para predecir las 3 observaciones referidas a 2025.

Una primera visualización de la serie permite identificar una clara tendencia creciente a lo largo del tiempo, especialmente a partir de 2020, con un aumento significativo hacia 2024.

En principio no se logra reconocer un comportamiento estacional evidente o un patrón repetitivo a intervalos fijos en la serie.

La variabilidad parece aumentar ligeramente con el nivel de la serie, lo que podría sugerir la necesidad de aplicar una transformación logarítmica a modo de homogeneizar la Varianza de la serie. El uso de dicha transformación se evaluará más adelante tomando como insumo el comportamiento de los residuos.

1 Análisis Inicial

1.1 Gráfico de la Serie Temporal

1.2 Estadísticas Descriptivas

Estadísticas Descriptivas de la Serie de Cantidad de Personas con Deuda
Estadística Valor
Min. 332198
1st Qu. 353361
Median 394463
Mean 395286
3rd Qu. 432958
Max. 495587

2 Identificación del Modelo

2.1 Análisis en el Dominio del Tiempo

2.1.1 Función de Autocorrelación (FAC)

Se observa que la Función de Aucorrelación (FAC) decrece lentamente y de forma persistente, con coeficientes de autocorrelación significativos que se mantienen altos incluso en rezagos grandes y que, por ende, no se comportan de acuerdo al decaimiento exponencial que caracteriza a las series débilmente estacionarias1. Esto es un fuerte indicio de que la serie no es estacionaria.

Además, las autocorrelaciones significativas en rezagos altos sugieren la presencia de una tendencia, detalle claramente observable al inspeccionar el gráfico de la serie.

2.1.2 Función de Autocorrelación Parcial (FACP)

La Función de Aucorrelación Parcial (FACP) muestra un coeficiente significativo en el primer rezago y luego decae rápidamente, no habiendo otro rezago que resulte significativo al nivel de significación usual del 5%.

Esto podría sugerir un componente AR(1) si la serie fuera estacionaria. Sin embargo, dada la FAC planteada anteriormente, se concluye de este primer análisis del Dominio del Tiempo en la necesidad de aplicar, al menos, una primera diferencia regular a la serie.

2.2 Análisis en el Dominio de Frecuencias

Mediante el Periodograma Suavizado de la serie es posible respaldar la idea de que la misma presenta una tendencia que debería ser modelada.

En particular, las frecuencias más próximas a 0, y por ende las asociadas a ciclos de período próximo a infinito (el componente tendencial) explica la mayor parte de la variabilidad de la serie2.

2.3 Contraste de Raíces Unitarias

A la hora de determinar si la tendencia puede ser modelada de forma determinística o si la misma es resultado de la presencia de raíces unitarias se lleva acabo los Contrastes de Dickey-Fuller aumentado y KPSS.

2.3.1 Dickey-Fuller

En primera instancia se plantea el contraste seleccionando la cantidad de lags por medio de Criterios de Información (AIC y BIC) lo que resulta en la elección de \(p = 1\). Con este valor, sin embargo, no se logra el comportamiento deseado de los residuos (que los mismos sean autocorrelacionados), por lo que se procedió a probar con varios valores de lags adicionales. Esto resultó en la elección de \(p = 2\), con ambos coeficientes significativos a los niveles de significación usuales.


############################################### 
# Augmented Dickey-Fuller Test Unit Root Test # 
############################################### 

Test regression trend 


Call:
lm(formula = z.diff ~ z.lag.1 + 1 + tt + z.diff.lag)

Residuals:
     Min       1Q   Median       3Q      Max 
-15666.6  -2253.1   -102.8   2526.6  19563.1 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept)  2.250e+04  2.403e+04   0.936 0.352564    
z.lag.1     -6.637e-02  7.590e-02  -0.875 0.385056    
tt           2.118e+02  1.615e+02   1.311 0.194471    
z.diff.lag1 -4.769e-01  1.222e-01  -3.902 0.000229 ***
z.diff.lag2 -4.285e-01  1.156e-01  -3.708 0.000434 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 6262 on 65 degrees of freedom
Multiple R-squared:  0.3134,    Adjusted R-squared:  0.2712 
F-statistic: 7.419 on 4 and 65 DF,  p-value: 5.505e-05


Value of test-statistic is: -0.8745 9.9485 2.3435 

Critical values for test statistics: 
      1pct  5pct 10pct
tau3 -4.04 -3.45 -3.15
phi2  6.50  4.88  4.16
phi3  8.73  6.49  5.47

Del contraste de Dickey-Fuller aumentado se concluye que:

  • No se rechaza la Hipótesis Nula de que la Serie presente una raíz unitaria a ninguno de los niveles de significación planteados. De esta manera se tiene un respaldo para aplicar la Primera Diferencia Regular.

  • PREGUNTAR (en base a phi3): Se rechaza la Hipótesis Nula de que \(b = 0, \gamma = 0\). Es decir, no hay raiz unitaria presente ni término de tendencia determinístico. Considerando el punto anterior esto sugiere que la serie no presenta una tendencia determinística que deba ser modelada.

  • PREGUNTAR (en base a phi2): No se rechaza la Hipótesis Nula de que \(a = 0 , b = 0, \gamma = 0\).

2.3.2 KPSS

En segunda instancia se plantea el Contraste KPSS, lo que resulta en que


####################### 
# KPSS Unit Root Test # 
####################### 

Test is of type: tau with 3 lags. 

Value of test-statistic is: 0.2567 

Critical value for a significance level of: 
                10pct  5pct 2.5pct  1pct
critical values 0.119 0.146  0.176 0.216

Como resultado se rechaza la Hipótesis Nula de que la Serie sea Integrada de Orden 0, lo que nuevamente da un respaldo para la Aplicación de la Primera Diferencia Regular en los datos.

2.4 Serie Diferenciada de acuerdo a la Primera Diferencia Regular

La primera diferencia regular tiene como resultado una serie que adquiere un comportamiento más próximo al estacionario que la serie original. En principio es posible observar que la tendencia ha sido eliminada y la Media parece ser constante. No obstante, la Varianza no se comporta de forma constante.

En el primer gráfico se puede observar que la serie se comporta de forma similar en todos los años disponibles, con la excepción de los años 2019 y 2024, en los meses de setiembre y octubre en particular. Esto puede ser un indicio de un posible outlier que requiera intervención.

Del segundo gráfico se destaca los meses de marzo, junio, septiembre y diciembre, que presentan medias mayores en comparación al resto.

2.5 FAC y FACP de la Serie Diferenciada

Al analizar la Función de Autocorrelación de la serie de Cantidad de Personas con Deuda en Santander una vez aplicada la Primera Diferencia Regular (\(d=1\)), se observa que, aunque la tendencia lineal ha sido eliminada (lo que se corrobora con los tests de Dickey-Fuller Aumentado y KPSS), persisten patrones de Autocorrelación significativos.

Específicamente, se nota la presencia de coeficientes significativos en el rezago 3, en el rezago 6 y en el rezago 9, con una rápida aproximación a las bandas de confianza3.

De esta manera se puede destacar que las observaciones se encuentran autocorrelacionadas con sus valores de 3, 6 y 9 meses atrás. Este comportamiento sugiere la utilización, en principio, de un SARIMA(3,1,0)(0,0,0), bajo el argumento de que la FAC se comporta como la que presenta un AR(3) con \(\phi_1 = \phi_2 = 0\).

En la FACP, en cambio, se observa la significación de los coeficientes asociados a los dos primeros retardos. En conjunto con la significación del \(\hat{\rho}_1\) de la FAC es que se plantea la posibilidad de modelar la Estacionalidad por medio de un SARIMA(3,1,0)(0,1,1).

2.6 Dominio de Frecuencias: Análisis del Espectro de la Serie Diferenciada

El Espectro también muestra como la primera diferencia elimina el componente tendencial, al presentar bajos valores en las frecuencias más bajas. No obstante, realza el peso de las frecuencias que se encuentran en torno a \(\omega_{\max} = 2.12\).

Considerando que \(\text{per}(\omega_j) = \frac{2\pi}{\omega_j}\), entonces se tiene que \(\text{per}(\omega_{\max}) \approx 3\), lo que quiere decir que la aplicación de la primera diferencia regular tuvo como resultado el incrementar la importancia de los ciclos que se repiten cada 3 meses a la hora de explicar la variabilidad de la serie.

Sea \(j\) el índice de la observación y \(T = 75\) la cantidad de observaciones que componen a la serie. Entonces la frecuencia j-ésima viene dada por \(\omega_j = \frac{2\pi j}{T}\) con período \(\text{per}(\omega_j) = \frac{2\pi}{\omega_j} = \frac{T}{j}\). Considerando la frecuencia de espectro más alto identificada en el párrago anterior se obtiene que4 \(j_{\max} = 25\) con período \(3\).

PREGUNTA: El hecho de que los ciclos que más explican la varianza sean los de período 3 puede ir de la mano con lo que indicaba Lucca de que entran deudores a los 3 meses (2+1).

2.7 Serie Diferenciada de acuerdo a la Primera Diferencia Regular y Primera Diferencia Estacional (Trimestral)

2.8 Gráfico de la Serie Diferenciada Estacional

2.9 FAC y FACP de la Serie Diferenciada (Regular y Estacional)

2.10 Serie Diferenciada de acuerdo a la Primera Diferencia Regular y Primera Diferencia Estacional (Anual)

2.11 Gráfico de la Serie Diferenciada Estacional Anual

2.12 FAC y FACP de la Serie Diferenciada (Regular y Estacional Anual)

3 Modelos Propuesto

3.1 Exploración del Modelo SARIMA(3,1,0)(0,0,0)

3.1.1 Ajuste del Modelo ARIMA(3,1,0)

Coeficientes del Modelo ARIMA(3,1,0)
Término Beta1 SE
ar1 0.00 0.000
ar2 0.00 0.000
ar3 0.52*** 0.101
Abbreviations: CI = Confidence Interval, SE = Standard Error
1 *p<0.05; **p<0.01; ***p<0.001

3.1.2 Criterios de Información del Modelo ARIMA(3,1,0)

Criterios de Información del Modelo ARIMA(3,1,0)
AIC AICc BIC
1472.034 1472.208 1476.587

3.1.3 Diagnóstico de los Residuos del Modelo ARIMA(3,1,0)

3.1.3.1 FAC y FACP de los Residuos

3.2 Exploración del Modelo SARIMA(3,1,0)(0,1,0)[12]

Como los FAC y FACP de la serie con primera diferencia regular muestran una relación significativa en el rezago 12, se va a explorar un modelo SARIMA(3,1,0)(0,1,0)[12].

3.2.1 Ajuste del Modelo SARIMA(3,1,0)(0,1,0)[12]

Coeficientes del Modelo SARIMA(3,1,0)(0,1,0)[12]
Término Beta1 SE
ar1 -0.10 0.126
ar2 0.01 0.127
ar3 0.23 0.128
Abbreviations: CI = Confidence Interval, SE = Standard Error
1 *p<0.05; **p<0.01; ***p<0.001

3.2.2 Criterios de Información del Modelo SARIMA(3,1,0)(0,1,0)[12]

Criterios de Información del Modelo SARIMA(3,1,0)(0,1,0)[12]
AIC AICc BIC
1239.718 1240.445 1248.095

3.2.3 Medidas de Error del Modelo SARIMA(3,1,0)(0,1,0)[12]

Medidas de Error del Modelo SARIMA(3,1,0)(0,1,0)[12] en el Conjunto de Entrenamiento
Conjunto ME RMSE MAE MPE MAPE MASE ACF1
Training set 304.8205 6286.322 4439.871 0.0580814 1.099367 0.1783413 -0.0289458

3.2.4 Pruebas de Raíz Unitaria en los Residuos del SARIMA(3,1,0)(0,1,0)[12]

Resultados de las Pruebas de Raíz Unitaria (ADF y KPSS) en los Residuos del Modelo SARIMA(3,1,0)(0,1,0)[12]
Test Statistic p_value Method
ADF Test -3.1272328 0.1161203 Augmented Dickey-Fuller Test
KPSS Test 0.1771687 0.1000000 KPSS Test for Level Stationarity

3.2.5 Diagnóstico de los Residuos del Modelo SARIMA(3,1,0)(0,1,0)[12]

3.2.5.1 Gráfico de Residuos

3.2.5.2 FAC y FACP de los Residuos

3.2.5.3 Test de Ljung-Box

Resultados del Test de Ljung-Box para los Residuos del SARIMA(3,1,0)(0,1,0)[12]
Test Estadistico p_value Metodo Parametro
Ljung-Box (Lag 10) 3.193297 0.8665635 Box-Ljung test 7
Ljung-Box (Lag 20) 23.854063 0.1234547 Box-Ljung test 17

3.2.5.4 Análisis de Homocedasticidad

3.2.5.5 Análisis de Normalidad

3.2.5.6 Tests de Normalidad

Resultados de los Tests de Normalidad para los Residuos del SARIMA(3,1,0)(0,1,0)[12]
Test Estadistico p_value Metodo
Shapiro-Wilk 0.9649876 0.0402227 Shapiro-Wilk normality test
Jarque-Bera 5.7830587 0.0554913 Jarque Bera Test

3.3 Exploración del Modelo SARIMA(0,1,0)(3,1,0)[3] con Componente Estacional Trimestral AR(3)

Dado que se observaron picos en los meses de marzo, junio, septiembre y diciembre en el gráfico estacional, lo que sugiere una estacionalidad trimestral, exploraremos un modelo SARIMA que incorpore esta periodicidad. Específicamente, se propone un modelo SARIMA(0,1,0)(3,1,0)[3], que aplica una diferencia regular (d=1) y una diferencia estacional trimestral (D=1, período=3), además de incluir un componente autorregresivo estacional de orden 3 (P=3) para capturar la dependencia en los rezagos trimestrales.

3.3.1 Ajuste del Modelo SARIMA(0,1,0)(3,1,0)[3]

Coeficientes del Modelo SARIMA(0,1,0)(3,1,0)[3]
Término Beta1 SE
sar1 -0.63*** 0.113
sar2 -0.48*** 0.130
sar3 -0.41*** 0.119
Abbreviations: CI = Confidence Interval, SE = Standard Error
1 *p<0.05; **p<0.01; ***p<0.001

3.3.2 Criterios de Información del Modelo SARIMA(0,1,0)(3,1,0)[3]

Criterios de Información del Modelo SARIMA(0,1,0)(3,1,0)[3]
AIC AICc BIC
1405.061 1405.686 1413.997

3.3.3 Medidas de Error del Modelo SARIMA(0,1,0)(3,1,0)[3]

Medidas de Error del Modelo SARIMA(0,1,0)(3,1,0)[3] en el Conjunto de Entrenamiento
Conjunto ME RMSE MAE MPE MAPE MASE ACF1
Training set 321.7881 5753.515 4111.872 0.06423 1.040269 0.1651662 -0.2018562

3.3.4 Pruebas de Raíz Unitaria en los Residuos del SARIMA(0,1,0)(3,1,0)[3]

Resultados de las Pruebas de Raíz Unitaria (ADF y KPSS) en los Residuos del Modelo SARIMA(0,1,0)(3,1,0)[3]
Test Statistic p_value Method
ADF Test -3.4169876 0.0598028 Augmented Dickey-Fuller Test
KPSS Test 0.1401301 0.1000000 KPSS Test for Level Stationarity

3.3.5 Diagnóstico de los Residuos del Modelo SARIMA(0,1,0)(3,1,0)[3]

3.3.5.1 Gráfico de Residuos

3.3.5.2 FAC y FACP de los Residuos

3.3.5.3 Test de Ljung-Box

Resultados del Test de Ljung-Box para los Residuos del SARIMA(0,1,0)(3,1,0)[3]
Test Estadistico p_value Metodo Parametro
Ljung-Box (Lag 10) 5.424202 0.6083416 Box-Ljung test 7
Ljung-Box (Lag 20) 17.124673 0.4459509 Box-Ljung test 17

3.3.5.4 Análisis de Homocedasticidad

3.3.5.5 Análisis de Normalidad

3.3.5.6 Tests de Normalidad

Resultados de los Tests de Normalidad para los Residuos del SARIMA(0,1,0)(3,1,0)[3]
Test Estadistico p_value Metodo
Shapiro-Wilk 0.9583289 0.0166843 Shapiro-Wilk normality test
Jarque-Bera 8.7482146 0.0125994 Jarque Bera Test

3.4 Exploración del Modelo SARIMA(3,1,0)(3,1,0)[3] con Componentes Normales y Estacionales Trimestrales

Basándonos en la posible relevancia de los componentes no estacionales y la fuerte evidencia de estacionalidad trimestral, se propone explorar un modelo SARIMA más completo: el SARIMA(3,1,0)(3,1,0)[3]. Este modelo incorpora una diferencia regular (d=1) para la tendencia, un componente autorregresivo no estacional de orden 3 (p=3), una diferencia estacional trimestral (D=1, período=3) y un componente autorregresivo estacional de orden 3 (P=3).

3.4.1 Ajuste del Modelo SARIMA(3,1,0)(3,1,0)[3]

Coeficientes del Modelo SARIMA(3,1,0)(3,1,0)[3]
Término Beta1 SE
ar1 -0.23 0.122
ar2 -0.10 0.128
ar3 -0.23 0.273
sar1 -0.43 0.276
sar2 -0.35** 0.136
sar3 -0.32* 0.129
Abbreviations: CI = Confidence Interval, SE = Standard Error
1 *p<0.05; **p<0.01; ***p<0.001

3.4.2 Criterios de Información del Modelo SARIMA(3,1,0)(3,1,0)[3]

Criterios de Información del Modelo SARIMA(3,1,0)(3,1,0)[3]
AIC AICc BIC
1407.157 1408.993 1422.795

3.4.3 Medidas de Error del Modelo SARIMA(3,1,0)(3,1,0)[3]

Medidas de Error del Modelo SARIMA(3,1,0)(3,1,0)[3] en el Conjunto de Entrenamiento
Conjunto ME RMSE MAE MPE MAPE MASE ACF1
Training set 408.2975 5605.362 3974.201 0.0830158 0.9981478 0.1596362 -0.0053699

3.4.4 Pruebas de Raíz Unitaria en los Residuos del SARIMA(3,1,0)(3,1,0)[3]

Resultados de las Pruebas de Raíz Unitaria (ADF y KPSS) en los Residuos del Modelo SARIMA(3,1,0)(3,1,0)[3]
Test Statistic p_value Method
ADF Test -3.198569 0.0948957 Augmented Dickey-Fuller Test
KPSS Test 0.144430 0.1000000 KPSS Test for Level Stationarity

3.4.5 Diagnóstico de los Residuos del Modelo SARIMA(3,1,0)(3,1,0)[3]

3.4.5.1 Gráfico de Residuos

3.4.5.2 FAC y FACP de los Residuos

3.4.5.3 Test de Ljung-Box

Resultados del Test de Ljung-Box para los Residuos del SARIMA(3,1,0)(3,1,0)[3]
Test Estadistico p_value Metodo Parametro
Ljung-Box (Lag 10) 3.036191 0.8816342 Box-Ljung test 7
Ljung-Box (Lag 20) 13.070802 0.7314335 Box-Ljung test 17

3.4.5.4 Análisis de Homocedasticidad

3.4.5.5 Análisis de Normalidad

3.4.5.6 Tests de Normalidad

Resultados de los Tests de Normalidad para los Residuos del SARIMA(3,1,0)(3,1,0)[3]
Test Estadistico p_value Metodo
Shapiro-Wilk 0.961192 0.0242785 Shapiro-Wilk normality test
Jarque-Bera 6.654615 0.0358896 Jarque Bera Test

3.5 Comparación de Modelos SARIMA

Footnotes

  1. En el presente trabajo se utilizará como sinónimos “estacionariedad en sentido débil”, “estacionariedad en covarianza” y “estacionariedad”, al igual que se hizo durante el desarrollo del curso.↩︎

  2. Corresponde resaltar, sin embargo, que la relación entre el área que se encuentra por debajo del Espectro/Periodograma y la Varianza de la serie se plantea para series estacionarias, propiedad que claramente no caracteriza a la serie en tratamiento.↩︎

  3. El coeficiente asociado al rezago 12 también es significativo, aunque como su magnitud es mayor a la del coeficiente del rezago 9 se decide, en principio, trabajar con los rezagos \(k = 3, 6, 9\).↩︎

  4. Dado \(\omega_j = 2.12 = \frac{2\pi j}{75}\) y despejando \(j\) se obtiene \(j_{\max} \approx 25\).↩︎